Comparing two analyzers of Japanese corpora for helping linguists: MeCab and Sagace (Comparaison de deux outils d'analyse de corpus japonais pour l'aide au linguiste, Sagace et Mecab) [in French]

نویسنده

  • Raoul Blin
چکیده

Our purpose is to compare two tools used to help linguists analyze large corpora of raw Japanese text. We measure their precision while counting strings of morphs. Each tool is representative of a specific approach. The first tool is based on the statistical morphological analyzer MeCab. It first tokenizes and POS tags the whole sentence before searching and counting strings. The second tool, Sagace, searches and counts within the text as it is. In accordance with our assumptions, Sagace performed slightly worse overall but the difference is not as marked as expected. Taking into account the needs of linguists, Sagace is nevertheless useful for many tasks. Mots-clés : Japonais, Corpus, Analyseurs morphologique, MeCab, Sagace

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Ontologies pour l'aide à l'exploration d'une collection de documents

Dans cet article nous présentons un système à base d'ontologies pour l'aide à une activité de recherche, d'analyse et d'exploration de corpus documentaires relatifs à un domaine scientifique. Les ontologies utilisées visent à représenter un domaine à la fois à travers le vocabulaire de ce domaine, mais également au travers de l'ensemble des méta-données qui peuvent être utiles dans des activité...

متن کامل

Deux approches pour la comparaison de relations spatiales floues. Transport optimal et morphologie mathématique

RÉSUMÉ. Les relations spatiales sont au cœur de beaucoup de méthodes d’interprétation de scènes à l’aide d’informations structurelles. Lorsque ces scènes sont analysées par comparaison avec un modèle, ou lorsqu’elles sont dynamiques et que l’on s’intéresse à leur évolution, il faut alors développer des outils pour comparer des relations spatiales, souvent exprimées ou connues de manière impréci...

متن کامل

Outils d'analyse de la dynamique des écritures médiévales. Pour l'aide à l'expertise paléographique

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Un analyseur Syntaxique interactif pour la Communication homme-Machine

Nous envisageons la r&lisation d'un syst~me de communication Homme-Machine en langues naturelles, qui pourrait 8tre utilis6 par exemple pour l'dtude de la langue elle-mSme ou pour la rdalisation d'un syst~me questions-r~ponses sttr un sujet d~termind (consultation d'tme banque de donn~es et r6ponses approprides). Avant d'en arriver ~t la rdalisation du module s~mantique, il faut se d~finir un m...

متن کامل

Symbolic and statistical learning for chunking : comparison and combinations (Apprentissage symbolique et statistique pour le chunking: comparaison et combinaisons) [in French]

RÉSUMÉ Nous décrivons dans cet article l’utilisation d’algorithmes d’inférence grammaticale pour la tâche de chunking, pour ensuite les comparer et les combiner avec des CRF (Conditional Random Fields), à l’efficacité éprouvée pour cette tâche. Notre corpus est extrait du French TreeBank. Nous proposons et évaluons deux manières différentes de combiner modèle symbolique et modèle statistique ap...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014